# Clustering

Dans les deux dernires cours, on a rencontré deux situations d'apprentissage différentes.

Dans le premier scénario, on cherchait à apprendre à classer des objets : à partir d'un ensemble d'exemples, on cherchait à apprendre à classer de nouveaux objets.
Par exemple, à partir d'une base de données comportant les caractéristiques de certains fruits, on cherchait à apprendre à reconnaître des fruits.
On parlait alors **d'apprentissage supervisé**, car on explique à la machine ce qu'elle doit trouver, et elle apprend à le reconnaître.

Dans le second scénario, on cherchait à donner de la structure à un ensemble : à partir d'un ensemble de sites internet, et des liens qui existent entre eux, on cherchait à déterminer un classement des sites par ordre d'importance sur internet.
On parlait alors **d'apprentissage non supervisé**, car on ne donnait à la machine aucun exemple permettant de déterminer ce classement, elle l'établissait d'elle-même.

C'est cette capacité à donner de la structure à un ensemble de données qui caractérise l'apprentissage non-supervisé.
Dans ce TP, on ne cherchera plus à établir un classement entre des objets, mais à les regrouper en groupes d'objets similaires.

Ce problème est un problème difficile, car on ne connaît absolument rien de ces groupes : on ne sait pas *a priori* combien il y en a, ni quelles sont leurs caractéristiques.

On doit alors nécessairement faire une hypothèse sur nos données.
Par exemple, on peut supposer que nos données sont réparties en groupes homogènes, c'est-à-dire en groupes dans lesquels les points sont proches les uns des autres, tout en étant éloignés des points des autres groupes.
Cela demande naturellement de définir une notion de distance appropriée, et on va étudier cela dans ce TP.

**Ce TP est à rendre pour le vendredi 9 avril avant le cours à 14h15. Vous pouvez le rendre en binômes si vous voulez, à condition de bien me le signaler.**

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets 

## Des Jeux de Données

La fonction `make_blobs` de `sklearn` permet de générer des données naturellement regroupées en plusieurs groupes.
Par exemple, on peut générer un dataset comportant deux groupes :

In [None]:
X_2blobs, y_2blobs = datasets.make_blobs(200, 2, centers=2, cluster_std=0.5, random_state=42)

plt.scatter(X_2blobs[:,0], X_2blobs[:, 1], c=y_2blobs, cmap='Dark2')

**Question 1.** Générez un dataset `(X_5blobs, y_5blobs)` avec la fonction `datasets.make_blobs` qui comporte $500$ points, en deux dimensions, répartis en $5$ groupes, et affichez le.

*Vous pourrez vous aider de la documentation de la fonction `make_blobs` en exécutant le code `help(datasets.make_blobs)`.*

In [None]:
#~~~ générez un dataset avec 5 blobs ~~~

Pour la suite, on va utiliser les deux jeux de données suivants :
* un avec 3 groupes, mais pas complètement séparés : `(X_blobs, y_blobs)` ;
* un avec 2 groupes, séparés mais s'entre-mêlant : `(X_moons, y_moons)`.

In [None]:
centres = [[2, 1], [-1, -2], [1, -1]]
X_blobs, y_blobs = datasets.make_blobs(n_samples=300, centers=centres, cluster_std=.5, random_state=42)

X_moons, y_moons = datasets.make_moons(n_samples=500, noise=0.05, random_state=42)

**Question 2.** Affichez les deux datasets.

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(10, 5))

#~~~ affichez les deux datasets X_blobs et X_moons avec les bonnes couleurs ~~~

## KMeans

On va maintenant chercher à retrouver à retrouver ces groupes à partir de la seule connaissance des points (et aucune connaissance des groupes auquel chacun des points appartient !).
C'est un problème d'apprentissage non supervisé : le **clustering**.

Pour cela, une méthode simple, mais qui a largement fait ses preuves, est l'algorithme KMeans.
Cette méthode représente les groupes ("clusters") par un point : le centre de ce groupe.
Ainsi, on peut voir cela de deux façons :
1. Un ensemble $S = \{s_1, \dots, s_K\}$ de points de notre espace définissent $K$ clusters : en effet, il suffit de chercher, pour chacun des éléments de notre dataset, le point de $S$ dont il est le plus proche, on associe dont un point de $S$ (et un seul !) à chacun des éléments de notre dataset. (Remarquez cependant qu'il est possible que certains de ces clusters soient vides.)
2. Un ensemble de points de notre dataset peut être représenté par un unique point : le barycentre (ie. la moyenne) de ses points.

L'idée de KMeans est alors la suivante :
* on commence par choisir un nombre de clusters $K$ ;
* ensuite, on tire un ensemble $S$ de $K$ points de notre jeu de données : ces points définissent $K$ clusters (cf. point 1 ci-dessus) ;
* puis on itère :
 * on attribue à chaque élément de notre dataset le point de $S$ qui en est le plus proche : cela forme $K$ nouveaux clusters ;
 * on met à jour nos $K$ points, en prenant pour chaque point le centre du cluster lui correspondant (cf. point 2 ci-dessus).
 
C'est en fait un algorithme itératif qui cherche le minimum du problème suivant :

$$\mathop{\mathrm{argmin}}_{s_1,\dots,s_K}\sum_{x\in X}\bigg(\min_{k\in[1,K]}\Vert x-s_k \Vert^2\bigg).$$

Ainsi, après assez d'itérations (et on verra comment le choisir), les points ne bougent plus : on a trouvé nos clusters.
Néanmoins, le problème d'optimisation décrit ci-dessus est un problème difficile, et il est possible qu'il existe plusieurs solutions à ce problème.
Les clusters obtenus à la fin pourront donc varier d'une exécution à l'autre de l'algorithme.
Notamment, selon les points $S$ tirés au début, les clusters obtenus pourront être différents.

Cette méthode est implémentée dans `sklearn`, testons là sur notre dataset `X_blobs` : on lance la fonction et on affiche 1/ les clusters obtenus et 2/ leurs centres (ie. les points de $S$, en rouge).

In [None]:
from sklearn.cluster import KMeans

In [None]:
kmeans = KMeans(n_clusters=3)
pred = kmeans.fit_predict(X_blobs)

centers = kmeans.cluster_centers_

plt.scatter(X_blobs[:,0], X_blobs[:, 1], c=pred, cmap='Dark2')
plt.scatter(centers[:,0], centers[:,1], c="red")

**Question 3.** Relancez plusieurs fois la cellule d'au-dessus. Les clusters obtenus sont-ils à chaque fois les mêmes ? Sont-ils toujours dans le même ordre ? Expliquez.

*Réponse :*

**Question 4.** Comme vous le voyez dans la cellule de code précédente, l'argument `n_clusters` indique à `KMeans` combien de clusters rechercher. Lancez l'algorithme en cherchant cette fois-ci $5$ clusters. Commentez le résultat obtenu.

In [None]:
#~~~ lancez l'algorithme pour 5 clusters, commenter ~~~

*Réponse :* 

## K-means à la main

Dans cette partie, on va étudier une implémentation de l'algorithme KMeans.
Pour cela, on va utiliser les trois fonctions suivantes :
* `tirer_points_au_hasard` tire `K` points au hasard dans le dataset `X` ;
* `point_plus_proche` renvoie une liste qui contient l'indice du point de `S` le plus proche de chacun des éléments de `X` ;
* `barycentre` qui calcule le barycentre des `K` clusters de `X`, l'appartenance de chacun des éléments de `X` étant définie par l'argument `pproche`.

In [None]:
def tirer_points_au_hasard(X, K):
 id_points = np.random.choice(range(X.shape[0]), K)
 return X[id_points].copy()

def point_plus_proche(X, S):
 dist = ((X[:, np.newaxis,:] - S[np.newaxis,:,:])**2).sum(axis=-1)
 return dist.argmin(axis=1)

def barycentre(X, K, pproche):
 return np.array([np.average(X[pproche==i],axis=0) for i in range(K)])

**Question 5.** En utilisant les trois fonctions ci-dessus, implémentez l'algorithme KMeans, qui prend en argument un dataset `X`, le nombre de clusters `K` et une tolérance `tol`, qui servira de critère d'arrêt, et qui procède ainsi :
* tirer `K` points de `X` au hasard dans une variable `S` ;
* puis en boucle :
 * garder en mémoire les valeurs de `S` ;
 * mettre à jour les points de `S` ;
 * si la distance entre les nouvelles valeur de `S` et les anciennes est plus petite que `tol`, sortir de la boucle ;
* renvoyer `S` une liste qui associe à chaque ligne de `X` le numéro du cluster lui correspondant.
 
*Indice :* pour calculer la distance entre les anciens points de `S` et les nouveaux points, on gardera en mémoire les valeurs de `S` dans une variable `ancien_S` et on utilisera `np.linalg.norm(S - ancien_S)`. Attention à bien recopier `S` quand vous prenez sa valeur dans `ancien_S`, sinon la valeur sera écrasée !

In [None]:
def my_kmeans(X, K, tol=0.001):
 # ~~~ implémentez la fonction KMeans ~~~
 # elle doit renvoyer les points de S et les numéros des clusters pour chacun des points
 # sous la forme d'une liste

**Question 6.** Lancez votre algorithme sur le dataset `X_blobs` et vérifiez que vous obtenez la même chose qu'au dessus.

In [None]:
# ~~~ lancez l'algorithme sur X_blobs ~~~

In [None]:
# ~~~ affichez les résultats ~~~

# Les Limites de KMeans

**Question 7.** Reprenez le dataset `X_moons` de la question 2 et lancez l'algorithme KMeans dessus avec $K=2$ clusters. Que dire du résultat ?

In [None]:
# ~~~ lancez l'algorithme sur X_moons et affichez le résultat ~~~

*Réponse* : 

**Question 8.** Lancez KMeans avec un nombre de clusters $K$ différent de $2$. Pensez-vous qu'il existe un nombre $K$ qui permet d'obtenir une bonne solution de cette façon ?

In [None]:
# ~~~ lancez KMeans sur X_moons pour différentes valeurs de K, par exemple 4, 10 et 25, et affichez le résultat ~~~

*Réponse :* peu importe le nombre $K$, la solution ne donne jamais une répartition très satisfaisante.

# Spectral Clustering

En fait, on peut utiliser des choses que l'on a déjà vues sur les graphes pour améliorer le clustering.
En particulier, on avait vu que rechercher les valeurs propres de la matrice Laplacienne d'un graphe permettait de trouver une façon de le dessiner d'une façon assez lisible.

On peut donc améliorer l'algorithme de KMeans ci-dessus en l'appliquant non pas directement à nos points, mais à la représentation d'un certain graphe.
Il nous reste donc à définir ce graphe...

Une idée plutôt féconde est de considérer chacun des points de notre dataset comme un sommet dans un graphe, puis de relier chacun des sommets du graphe aux $K$ sommets les plus proches.
Intuitivement, ce graphe devrait être dense (ie. il y aura beaucoup d'arêtes entre les points) au sein de chacun des clusters, et il devrait y avoir relativement peu d'arêtes reliant les points appartenant à différent clusters.

Pour notre dataset `X_moons`, on obtiendrait par exemple le graphe suivant :

In [None]:
from sklearn.neighbors import kneighbors_graph
from matplotlib.collections import LineCollection

nb_voisins = 50
mat = kneighbors_graph(X_moons, nb_voisins, include_self=True)
mat_sym = 0.5 * (mat + mat.T)

segs = []
for i, x in enumerate(X_moons):
 for j, y in enumerate(X_moons):
 if mat_sym[i,j] > 0:
 segs.append((x, y))

line_segments = LineCollection(segs, linewidths=0.5, linestyle='solid', color="pink", zorder = -1)

fig, ax = plt.subplots(figsize=(10,10))
ax.add_collection(line_segments)
ax.scatter(X_moons[:, 0], X_moons[:, 1], c=y_moons, cmap="Dark2", alpha=1, s=50)

**Question 8.** Commentez la répartition des arêtes de ce graphe.

*Réponse :*

On peut maintenant utiliser ce que l'on a vu au TP6 sur la matrice Laplacienne.
Pour cela, on utilise la fonction `spectral_embedding` de `sklearn`, qui fait essentiellement ce qu'on a vu dans le TP, mais nous évite de tout réécrire.

Cela nous permet de transformer notre dataset ainsi :

In [None]:
from sklearn.manifold import spectral_embedding

X_moons_spec = spectral_embedding(mat_sym, n_components=2, drop_first=True)

**Question 9.** Tracer les points dans ce nouvel espace avec leur étiquette réelle. Que constatez-vous ? 

In [None]:
# ~~~ tracez le nouveau dataset obtenu et commentez ~~~

*Réponse* :

**Question 10.** Relancez KMeans dans ce nouvel espace, toujours avec deux clusters, et affichez les clusters obtenus. Que pensez-vous du résultat ?

In [None]:
# ~~~ relancez KMeans sur le nouveau dataset ~~~

In [None]:
# ~~~ affichez les résultats sur le dataset original ~~~

Le spectral clustering est très proche de la réalisation d'un spectral embedding suivi d'un K-means.
Il est implémenté dans `sklearn`, dans la classe `SpectralClustering`.

**Question 11.** Regardez la documentation de `sklearn` pour appliquer `SpectralClustering` sur le jeu de données `X_moons`. Retrouvez-vous bien le résultat obtenu à la question précédente ?

In [None]:
# ~~~ comparez avec `SpectralClustering` ~~~